在傳統的大數據分析需要投入大量的機器設備、人力維護、開發人員,這樣的投入耗時又耗財,花了極長的時間建置完成之後在開始做運算時,早就落後人家好幾大截,在這個資訊為主的世代,即便晚人家一秒的差距都是天與地,在這樣的情況下,我們需要一個快速解決這樣極大時間浪費與金錢的工具。
MaxCompute(原ODPS)一個善於數據分析的SaaS服務,Serverless架構來應付企業敏捷快速的使用,儲存與計算獨立分開並且支援動態擴容,適合在超大型數據計算中使用,在一些網站的交易分析,透過分析用戶特徵與興趣可以更為精準的投放內容給用戶,還具備各種方便的接口,像是Java SDK、Python SDK、JDBC、Restful API。並且可以按需使用按量付費,可以方便又快速的使用,同時價格也非常平易近人。
通常會結合DataWorks提供可視化來變成一站式調度、維運、託管分析平台,可以理解成DataWorks是MaxCompute的一個Web用戶端,而MaxCompute是DataWorks的計算。
產品架構:
主要分為五大塊的結構,分別是存儲、計算引擎、計算模型數據通道、用戶接入、統一元數據與安全管理
存儲:空間是以實際使用量來做計算,分散式存儲可建立多副本,來確保資料安全性,並且使用阿里自主開發的AliORC,降低文件讀取時間。
計算引擎:為本身自帶的計算能力,在處理Spark時會運行在阿里開發的CUPID上。
計算模型數據通道:支援多種數據通道滿足各項使用需求,最常使用是SQL,可以當作一般資料庫來操作,僅有少部分語法有差異。
用戶接入:各式大眾化最常使用的語法SDK提供接入使用,Java SDK、Python SDK、JDBC、Restful API。
統一元數據與安全管理:裡面包涵各項指標,包含資源使用、運作時間、數據處理量等各項指標,以便規劃使用,也可以設定各項安全的訪問控制或是數據加密。
產品特點:
全託管serverless服務
不需要特別建置機器,隨開隨用,最小化設備投入
彈性計算與存儲方便延展
計算與存儲分開,是各自獨立延展,可實時與當下狀態來分配資源
實時分析與各樣資料採集
支援實時寫入數據並展開分析,迅速解決資料分析來精準投放使用者喜歡的內容
高穩定資料安全
阿里巴巴內部使用已達7年以上,安全且高可用
多種計算模型數據
支援SQL、Graph、Java&Python UDF等計算
超大型EB級以上計算
適用於100GB以上大型資料存儲與計算,最大可達到EB等級
DataWorks深度結合
透過結合DataWorks,達到一站式管理,並且可以在Web端查詢編輯
接下來,會介紹這項服務在阿里上的完整結合,讓使用者能直接在雲上更方便快速操作的介面操作服務--------DataWorks,讓我們往下一天走吧!!